查看原文
其他

北大 && 知识感知问答KAQA | 一种细粒度的两阶段训练框架(FiTs)(开放源码)

ShuYini AINLPer 2023-07-10
点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 知识感知问答(KAQA)需要模型通过知识库回答问题,这对于开放领域QA和特定领域QA都是必不可少的,特别是当语言模型本身不能提供所需的知识时。尽管最近的KAQA系统倾向于整合来自预训练语言模型(PLM)的语言知识和来自知识图(KG)的知识来回答复杂的问题,但在融合来PLM和KG的表征方面仍然存在瓶颈:

  • (i)它们两者之间的语义和分布存在差距;
  • (ii)两者知识进行联合推理时存在困难。

 为此今天给大家分享的这篇文章为了解决上述两个问题,提出了一种细粒度的两阶段训练框架(FiTs)来提高KAQA系统的性能。

背景介绍

 大型预训练语言模型 (PLM) 的最新研究进展已证明在各种任务中具有明显的适用性。实验结果也表明,PLM 在处理与预训练和微调语料库分布不同的示例时可能会遇到困难,这一缺点限制了它们在广泛事实知识背景下的开放域问答 (QA) 任务中的性能。最近的一些研究专注于知识感知问答(KAQA)任务(如上图a所示),它允许访问外部知识库,尤其是知识图谱 (KG),因为 KG 利用编码实体之间关系的三元组来捕获广泛的事实知识。通过在 PLM 加入知识图谱,这些系统在开放领域知识和结构化推理的任务中取得了显著成果。

 绝大多数先进的「KAQA方法可以分为两类」:基于语义解析(基于 SP)的方法和基于信息检索(IR -based)方法。其中:

「SP-based的方法」通过对问题进行语法和语义分析生成逻辑形式来对KGs进行推理。由于逻辑形式的质量高度依赖于解析模块,解析模块将非结构化文本转换为结构化表示,增加了复杂问题的语言分析的难度,从而产生性能提升瓶颈。与此同时,手动标注逻辑表单成本高且耗费人力,这是该方法的另一个限制。

「IR-based 的方法」通常由KG检索和联合推理模块组成。为了对PLMs和检索到的KG子图进行联合推理,最关键的问题是模型必须融合PLMs、KG中编码的语义和分布不同的知识。例如,有些研究使用双塔模型捕获语言表示和图表示,但是由于两种模式之间缺乏相互作用,就遇到了类似的问题;还有一些研究将一种模态作为辅助知识来支撑另一种,即利用文本表示来增强图推理模型、利用编码的图知识增强QA样本的语言表示。

模型方法

 本文主要研究后一种方法,该方法分为两个阶段:

  • (i)根据问题中传达的信息从 KGs 中检索相关知识;
  • (ii) 融合检索到的知识和 PLM 捕获的上下文表示以执行联合推理。

 然而,IR-based 的 KAQA 模型会不可避免地会遇到两个问题:(1) 模态差异问题,即两种模态之间存在语义差异和分布差异;(2)联合推理问题,导致训练模型无法回答所提供的两种知识来源的问题。 为了解决上述两个问题,本文提出了一个细粒度的两阶段训练框架(FiTs),包括再训练阶段(Post-training)和微调阶段(Fine-tuning)(如上图所示)。 在第一阶段,提出了一种简单但有效的再训练方法,该方法利用知识自适应 (KA) 目标,使得 PLM 和 KG 的表示对齐,同一实体表示之间的语义一致性在训练后得到了极大的提高;缩小了语义和分布之间得差距,从而为微调提供了更好的起点。其中再训练阶段(Post-training)的训练过程流程如上图所示。该流程首先将问答对转换为模型输入(即掩膜上下文和 KG 子图),并使用跨模态编码器获得融合的标记(节点)();然后,[MASK] token 对应的token表示用于计算 MLM 损失;最后,文本实体的实体表示 和KG节点的用于计算知识自适应(KA)损失。

 在第二阶段,对训练模型进行微调,高效地利用PLM和KG的这两种知识来源进行推理(如上图所示)。为此,本文设计了两个辅助的自监督学习目标——(i)知识源区分(KSD),即让模型区分检索到的实体是与问题相关的,还是与答案相关的,或者是一个不相关的实体,以提高模型的知识理解能力;(ii) 知识主干正则化 (KBR),即除了对监督信号进行微调,对检索到的 KG 知识三元组施加正则化项,以增强模型的联合推理能力。

实验结果

 本文模型在三个基准测试集(CommonsenseQA、OpenbookQA和MedQA-USMILE)上分别实现了「2.6%」「1.8%」「0.6%」 的精度绝对提高,而仅增加了1%的可训练参数,这表明所提方法的有效性和领域通用性。详情测试结果如下。

CommonsenseQA内部拆分的性能比较如下表所示。OpenBookQA数据集下的结果对比。MedQA-USMILE数据集下的结果对比。

推荐阅读

[1] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !

[2] 2023年!自然语言处理(NLP)10 大预训练模型

[3] 颠覆传统神经网络!19个神经元驾驶一辆车!

[4]【超详细!】一文看懂从逻辑回归(Logistic)到神经网络(NN)

[5] ChatGPT要怎么微调?MIT韩松团队新作告诉你!

论文&&源码

Paper:https://arxiv.org/pdf/2302.11799v1.pdf

Code:https://github.com/yeeeqichen/fits

AINLPer自然语言交
扫描下方二维码添加作者微信:ainlperbot申请加入AINLPer微信交流群吧。主要涉及技术方向和应用方向。
技术方向:智能对话模型、自然语言模型(LM)、预训练语言模型(PLM)、生成模型、联邦学习、强化学习、多模态,知识图谱、模型加速、图神经网络、小样本学习、零样本学习、Prompt模型调优、Adapt模型调优,Transformer、Attention、Bert、GPT2、GPT3Flan-T5、深度学习基础知识、PyTorch等。
应用方向:智能问答(AI FAQ)、开放问答、对话生成、机器翻译(MT)、自然语言模型(LM)、情感分析、文本生成、中文实体识别、关系分类(RC)、关系提取、阅读理解、摘要生成、知识推荐等。

加群注明:工作/学生+研究方向+学校/公司,听说根据格式备注,可更快被通过且邀请进群哦~

AINLPer福利领取

后台回复:历年ACL/历年EMNLP/历年AAAI/历年NeurIPS/历年CoNLL/历年ICML/历年IJCAI/历年ICLR/.....,即可下载历年ACL、EMNLP、AAAI、NeurIPS、CoNLL、ICML、IJCAI、ICLR等论文列表下载合集。

后台回复:NLP巨佬,即可下载全球学术界知名学者教授信息大盘点(全)

后台回复:公司企业数据集,即可下载中国所有注册公司数据集

「资料整理不易,点个赞、再看吧」

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存